iT邦幫忙

2024 iThome 鐵人賽

DAY 8
0
生成式 AI

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧系列 第 8

第 8 天:模型訓練第三步|數據標記

  • 分享至 

  • xImage
  •  

數據標記主要是幫助模型可以判斷「這個資料他說代表的真實意思」,因為有些資料他其實是相對主管的,或是模型他是沒辦法辨識的,以一些常見了例子來說像是「圖片」
https://ithelp.ithome.com.tw/upload/images/20240823/20168835LJMrIJoLxy.png
裡面有吉娃娃也有杯子蛋糕,我們可以一看就知道,但對機器學習模型來說他就是「棕色的東西搭配三顆黑點」,因此需要我們手動來進行數據標記才可以幫助模型理解這是什麼

再來就是「主觀」的資訊,主觀就代表裡面有人自己的情感,這不是單從文字就可以感受得出來的。舉例來說像是「好啊」、「好啊~」、「好啊….」這三種雖然都是好啊,但看起來心情應該不會是相同的對嗎?

因此你需要手動幫 AI 標記這些資料代表什麼意思,他才可以知道差異該怎麼判斷,對於後續的訓練也會有幫助。

不是所有資料都需要數據標記

以我們這次的訓練資料「房價預測」其實就不用進行數據標記,因為我們的資料包含了我們需要判斷的數據像是「地點」、「坪數」、「房價」、「房齡」,這四個就可以幫助我進行預測,且這些資料都是相對客觀不會被主觀影響,因此就不會有需要另為人工標記的問題。

因此後續當你在訓練你的 AI 時,記得思考「你現在要做的事情是否會被主觀思維影響?」以及「訓練模型是否可以清楚理解每個資料是什麼?」,這樣就可以提升模型的精確性了!

那因為我們的訓練過程不用這一步驟,我們就繼續往下一步前進,換進行「數據集劃分」!


上一篇
第 7 天:模型訓練第二步|數據清理
下一篇
第 9 天:模型訓練第四步|數據集劃分
系列文
從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧21
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言